如今,用于行业4.0和物联网(IoT)的智能系统的环境正在经历快速的工业升级。开发了设计制造,事件检测和分类等大数据技术,以帮助制造组织实现智能系统。通过应用数据分析,可以最大化富数据的潜在值,从而帮助制造组织完成另一轮升级。在本文中,我们针对大数据分析提出了两种新算法,即UFC $ _ {gen} $和UFC $ _ {fast} $。两种算法旨在收集三种类型的模式,以帮助人们确定不同产品组合的市场位置。我们将这些算法在各种类型的数据集上进行比较,包括真实和合成。实验结果表明,这两种算法都可以通过基于用户指定的实用程序和频率阈值来利用所有候选模式的三种不同类型的有趣模式来成功实现模式分类。此外,就执行时间和内存消耗而言,基于列表的UFC $ _ {fast} $算法优于基于级别的UFC $ _ {gen} $算法。
translated by 谷歌翻译
机器学习透明度(ML),试图揭示复杂模型的工作机制。透明ML承诺推进人为因素在目标用户中以人为本的人体目标的工程目标。从以人为本的设计视角,透明度不是ML模型的属性,而是一种能力,即算法与用户之间的关系;因此,与用户的迭代原型和评估对于获得提供透明度的充足解决方案至关重要。然而,由于有限的可用性和最终用户,遵循了医疗保健和医学图像分析的人以人为本的设计原则是具有挑战性的。为了调查医学图像分析中透明ML的状态,我们对文献进行了系统审查。我们的评论在医学图像分析应用程序的透明ML的设计和验证方面揭示了多种严重的缺点。我们发现,大多数研究到达迄今为止透明度作为模型本身的属性,类似于任务性能,而不考虑既未开发也不考虑最终用户也不考虑评估。此外,缺乏用户研究以及透明度声明的偶发验证将当代研究透明ML的医学图像分析有可能对用户难以理解的风险,因此临床无关紧要。为了缓解即将到来的研究中的这些缺点,同时承认人以人为中心设计在医疗保健中的挑战,我们介绍了用于医学图像分析中的透明ML系统的系统设计指令。 Intrult指南建议形成的用户研究作为透明模型设计的第一步,以了解用户需求和域要求。在此过程之后,会产生支持设计选择的证据,最终增加了算法提供透明度的可能性。
translated by 谷歌翻译
分析序列数据通常导致有趣模式的发现,然后是异常检测。近年来,已经提出了许多框架和方法来发现序列数据中有趣的模式以及检测异常行为。然而,现有的算法主要专注于频率驱动的分析,并且它们是在现实世界的环境中应用的具有挑战性。在这项工作中,我们展示了一个名为Duos的新的异常检测框架,可以从一组序列中发现实用程序感知异常顺序规则。在基于模式的异常检测算法中,我们纳入了一个组的异常度和实用程序,然后介绍了实用程序感知异常序列规则(UOSR)的概念。我们表明这是一种检测异常的更有意义的方式。此外,我们提出了一些有效的修剪策略w.r.t.用于挖掘UOSR的上限,以及异常检测。在若干现实世界数据集上进行了广泛的实验研究表明,所提出的Duos算法具有更好的有效性和效率。最后,DUOS优于基线算法,具有合适的可扩展性。
translated by 谷歌翻译
基于分析数据采矿领域的支持交易中的效用比例,高效占用模式挖掘(Huopm)最近引起了广泛的关注。与高实用图案挖掘(HUPM)不同,涉及高实用程序(例如,有利可图)模式的枚举,Huopm旨在找到代表现有交易集合的模式。然而,在实际应用中,并非所有模式都使用或有价值。例如,模式可能包含太多项目,即模式可能太具体,因此对现实生活中的用户缺乏值。为了实现具有灵活长度的合格模式,我们在采矿过程中限制了最小和最大长度,并为灵活的高公用事业占用模式进行了新颖的算法。我们的算法称为Huopm +。为了确保图案的灵活性并拧紧公用事业占用的上限,提出了一种称为长度上限(LUB)的策略以修剪搜索空间。此外,使用实用程序占用列表(UO-NLIST)和频率实用占用表(FUO-TABLE)来避免数据库的多个扫描。随后的实验的评估结果证实,该算法可以有效地控制衍生模式的长度,用于现实世界和合成数据集。此外,它可以降低执行时间和存储器消耗。
translated by 谷歌翻译
在人机协作中,机器人错误是不可避免的 - 损害用户信任,愿意共同努力以及任务绩效。先前的工作表明,人们自然会对机器人错误的社会响应,并且在社交互动中,可以使用人类反应来检测错误。但是,在非社交,人类机器人协作(例如组装和工具检索)的领域中,几乎没有探索。在这项工作中,我们研究了人们对机器人错误的有机社会反应如何用于及时自动检测物理人类机器人相互作用中的错误。我们进行了一项数据收集研究,以获取面部响应以培训实时检测算法和案例研究,以探索我们通过不同的任务设置和错误的方法的普遍性。我们的结果表明,自然的社会响应是即使在非社会上下文中的机器人错误及时检测和定位的有效信号,并且我们的方法在各种任务上下文,机器人错误和用户响应中都具有牢固性。这项工作有助于无需详细的任务规格检测强大的错误检测。
translated by 谷歌翻译
由于其出色的经验表现,随机森林是过去十年中使用的机器学习方法之一。然而,由于其黑框的性质,在许多大数据应用中很难解释随机森林的结果。量化各个特征在随机森林中的实用性可以大大增强其解释性。现有的研究表明,一些普遍使用的特征对随机森林的重要性措施遭受了偏见问题。此外,对于大多数现有方法,缺乏全面的规模和功率分析。在本文中,我们通过假设检验解决了问题,并提出了一个自由化特征 - 弥散性相关测试(事实)的框架,以评估具有偏见性属性的随机森林模型中给定特征的重要性,我们零假设涉及该特征是否与所有其他特征有条件地独立于响应。关于高维随机森林一致性的一些最新发展,对随机森林推断的这种努力得到了赋予的能力。在存在功能依赖性的情况下,我们的事实测试的香草版可能会遇到偏见问题。我们利用偏置校正的不平衡和调节技术。我们通过增强功率的功能转换将合奏的想法进一步纳入事实统计范围。在相当普遍的具有依赖特征的高维非参数模型设置下,我们正式确定事实可以提供理论上合理的随机森林具有P值,并通过非催化分析享受吸引人的力量。新建议的方法的理论结果和有限样本优势通过几个模拟示例和与Covid-19的经济预测应用进行了说明。
translated by 谷歌翻译
量子状态断层扫描(QST)是估计未知量子状​​态给定测量结果的任务,对于构建可靠的量子计算设备至关重要。尽管计算最大样品(ML)估计值对应于解决有限的凸出优化问题,但目标函数并不顺利,也不是Lipschitz,因此大多数现有的凸优化方法都缺乏样品复杂性的保证;此外,样本量和尺寸都随QST实验中的QUB数量而成倍增长,因此所需的算法相对于尺寸和样本量应该高度扩展,就像随机梯度下降一样。在本文中,我们提出了一种随机的一阶算法,该算法计算$ o(((d \ log d) / \ varepsilon ^ 2)$ o(d ^ 3)$的$ o o((d \ log d) / \ varepsilon ^ 2)$ o(d ^ 3)$到达时间复杂性,其中$ d $表示未知量子状​​态的维度和$ \ varepsilon $表示优化错误。我们的算法是量子设置的软膜的扩展。
translated by 谷歌翻译
人类感知机器人导航有一系列应用程序,其中移动机器人对普通人类环境中的人们带来多功能援助。虽然现有研究主要集中在以独立,故意个人为独立的,但人们进入群体;因此,移动机器人必须在围绕人们时尊重人群。本文探讨了使用深度加强学习的基于动态组形成的学习群体感知导航策略。通过仿真实验,我们展示了与忽视人类群体的基线政策相比,群体感知政策实现了更大的机器人导航性能(例如,较少的碰撞),尽量减少侵犯社会规范和不适,并减少机器人对行人的运动影响。我们的成果有助于发展社会导航和移动机器人将移动机器人集成到人类环境中。
translated by 谷歌翻译
Deep learning models can achieve high accuracy when trained on large amounts of labeled data. However, real-world scenarios often involve several challenges: Training data may become available in installments, may originate from multiple different domains, and may not contain labels for training. Certain settings, for instance medical applications, often involve further restrictions that prohibit retention of previously seen data due to privacy regulations. In this work, to address such challenges, we study unsupervised segmentation in continual learning scenarios that involve domain shift. To that end, we introduce GarDA (Generative Appearance Replay for continual Domain Adaptation), a generative-replay based approach that can adapt a segmentation model sequentially to new domains with unlabeled data. In contrast to single-step unsupervised domain adaptation (UDA), continual adaptation to a sequence of domains enables leveraging and consolidation of information from multiple domains. Unlike previous approaches in incremental UDA, our method does not require access to previously seen data, making it applicable in many practical scenarios. We evaluate GarDA on two datasets with different organs and modalities, where it substantially outperforms existing techniques.
translated by 谷歌翻译
The development of social media user stance detection and bot detection methods rely heavily on large-scale and high-quality benchmarks. However, in addition to low annotation quality, existing benchmarks generally have incomplete user relationships, suppressing graph-based account detection research. To address these issues, we propose a Multi-Relational Graph-Based Twitter Account Detection Benchmark (MGTAB), the first standardized graph-based benchmark for account detection. To our knowledge, MGTAB was built based on the largest original data in the field, with over 1.55 million users and 130 million tweets. MGTAB contains 10,199 expert-annotated users and 7 types of relationships, ensuring high-quality annotation and diversified relations. In MGTAB, we extracted the 20 user property features with the greatest information gain and user tweet features as the user features. In addition, we performed a thorough evaluation of MGTAB and other public datasets. Our experiments found that graph-based approaches are generally more effective than feature-based approaches and perform better when introducing multiple relations. By analyzing experiment results, we identify effective approaches for account detection and provide potential future research directions in this field. Our benchmark and standardized evaluation procedures are freely available at: https://github.com/GraphDetec/MGTAB.
translated by 谷歌翻译